查看原文
其他

如何在极度不平衡模型中找到欺诈客户

2018-03-07 zhaikun Python爱好者社区

作者:zhaikun   风控建模屌丝一枚,现居于北京

个人微信公众号:Python数据分析与评分卡建模


今天给大家介绍一种基于高斯分布的异常样本检测方法。


数据获取方式:关注Python爱好者社区后回复 检测 即可



28万行,31列。



严重不平衡。


看下分布:



对数转换下:


dataset['Amount'] = np.log(dataset['Amount'] + 1)

dataset['Time'] = np.log(dataset['Time'] + 1)


再次看下分布:




下面数据集切分:



下面计算均值和协方差



然后计算不同阈值下的召回率、命中率和F2



发现F2分数是0.78,已经很高了。要知道我们可没有过采样/欠采样。


下面看下混淆矩阵:



效果很好。


数据获取方式:关注Python爱好者社区后回复 检测 即可

Python爱好者社区历史文章大合集

Python爱好者社区历史文章列表(每周append更新一次)

福利:文末扫码立刻关注公众号,“Python爱好者社区”,开始学习Python课程:

关注后在公众号内回复“课程”即可获取:

小编的Python入门视频课程!!!

崔老师爬虫实战案例免费学习视频。

丘老师数据科学入门指导免费学习视频。

陈老师数据分析报告制作免费学习视频。

玩转大数据分析!Spark2.X+Python 精华实战课程免费学习视频。

丘老师Python网络爬虫实战免费学习视频。



您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存